智能论文笔记

Cyclegan Network for Sheet Metal Welding Drawing Translation

Zhiwei Song , Hui Yao , Dan Tian , Gaohui Zhan

分类：计算机视觉 | 机器学习

2022-09-28

在智能制造中，机器翻译工程图的质量将直接影响其制造精度。目前，大多数工作都是手动翻译的，大大降低了生产效率。本文提出了一种基于环状生成对抗网络（Cyclegan）的焊接结构工程图的自动翻译方法。不成对转移学习的Cyclegan网络模型用于学习真实焊接工程图的功能映射，以实现工程图的自动翻译。 U-NET和PatchGAN分别是生成器和鉴别器的主要网络。基于删除身份映射函数，提出了一个高维稀疏网络，以取代传统的密集网络以改善噪声稳健性。增加残留块隐藏层以增加生成图的分辨率。改进和微调的网络模型经过实验验证，计算实际数据和生成数据之间的差距。它符合焊接工程精度标准，并解决了焊接制造过程中低绘图识别效率的主要问题。结果显示。在我们的模型训练之后，焊接工程图的PSNR，SSIM和MSE分别达到44.89％，99.58％和2.11，它们在训练速度和准确性方面都优于传统网络。

translated by 谷歌翻译

CSSAM: U-net Network for Application and Segmentation of Welding Engineering Drawings

Zhiwei Song , Hui Yao , Dan Tian , GaoHui Zhan

分类：计算机视觉 | 机器学习

2022-09-28

重型设备制造将特定的轮廓分解为图纸，并切割钣金以缩放焊接。当前，手动实现了焊接图轮廓的大多数分割和提取。它的效率大大降低了。因此，我们提出了一种基于U-NET的轮廓分割和用于焊接工程图的提取方法。工程图纸所需的零件的轮廓可以自动划分和清空，从而大大提高了制造效率。 U-NET包括一个编码器，该编码器通过语义差异和编码器和解码器之间的空间位置特征信息实现端到端映射。尽管U-NET擅长于细分医学图像，但我们在焊接结构图数据集上进行的广泛实验表明，经典的U-NET体系结构在细分焊接工程图纸方面缺乏。因此，我们设计了一种新型的通道空间序列注意模块（CSSAM），并在经典的U-NET上进行改进。同时，提出了垂直最大池和平均水平池。通过两个相等的卷积将池操作传递到CSSAM模块中。汇总之前的输出和功能通过语义聚类融合在一起，它取代了传统的跳跃结构，并有效地缩小了编码器和解码器之间的语义差距，从而改善了焊接工程图的分割性能。我们使用VGG16作为骨干网络。与经典的U-NET相比，我们的网络在工程绘图数据集细分方面具有良好的性能。

translated by 谷歌翻译

CTooth+: A Large-scale Dental Cone Beam Computed Tomography Dataset and Benchmark for Tooth Volume Segmentation

Weiwei Cui , Yaqi Wang , Yilong Li , Dan Song , Xingyong Zuo , Jiaojiao Wang , Yifan Zhang , Huiyu Zhou , Bung san Chong , Liaoyuan Zeng

分类：人工智能 | 计算机视觉

2022-08-02

准确的牙齿体积分割是计算机辅助牙齿分析的先决条件。基于深度学习的牙齿分割方法已经达到了令人满意的表现，但需要大量的牙齿数据。公开可用的牙科数据是有限的，这意味着无法在临床实践中复制，评估和应用现有方法。在本文中，我们建立了一个3D Dental CBCT数据集Ctooth+，具有22个完全注释的卷和146个未标记的体积。我们进一步评估了基于完全监督的学习，半监督学习和积极学习的几种最先进的牙齿量细分策略，并定义了绩效原则。这项工作为牙齿体积分割任务提供了新的基准，该实验可以作为未来基于AI的牙科成像研究和临床应用开发的基线。

translated by 谷歌翻译

Forecasting Future World Events with Neural Networks

Andy Zou , Tristan Xiao , Ryan Jia , Joe Kwon , Mantas Mazeika , Richard Li , Dawn Song , Jacob Steinhardt , Owain Evans , Dan Hendrycks

分类：机器学习 | 自然语言处理

2022-06-30

预测未来的世界事件是一项具有挑战性但有价值的任务。对气候，地缘政治冲突，大流行和经济指标的预测有助于塑造政策和决策。在这些领域中，专家人类的判断有助于最佳预测。鉴于语言建模的进步，这些预测可以自动化吗？为此，我们介绍了AutoCast，这是一个包含数千个预测问题和随附的新闻语料库的数据集。问题来自预测锦标赛，确保高质量，现实世界中的重要性和多样性。新闻语料库是按日期组织的，使我们能够精确模拟人类过去的预测（避免将来泄漏）的条件。我们的动机是由于数量级的预测数字的难度（例如，2022年的Covid-19的全球案例），我们还策划了Intervalqa，这是数值问题和校准的数值问题和指标的数据集。我们在预测任务上测试语言模型，并发现绩效远低于人类专家基线。但是，随着新闻语料库中相关信息的合并，绩效提高了绩效。总而言之，AutoCast对大型语言模型提出了一个新颖的挑战，并提高了性能可能会带来很大的实际收益。

translated by 谷歌翻译

CTooth: A Fully Annotated 3D Dataset and Benchmark for Tooth Volume Segmentation on Cone Beam Computed Tomography Images

Weiwei Cui , Yaqi Wang , Qianni Zhang , Huiyu Zhou , Dan Song , Xingyong Zuo , Gangyong Jia , Liaoyuan Zeng

分类：计算机视觉 | 人工智能

2022-06-17

3D牙齿分割是计算机辅助牙齿诊断和治疗的先决条件。但是，将所有牙齿区域分割为主观且耗时。最近，基于深度学习的细分方法产生了令人信服的结果并减少了手动注释的工作，但是它需要大量的基础真相进行培训。据我们所知，3D分割研究几乎没有牙齿数据。在本文中，我们建立了带有牙齿金标准的完全注释的锥束计算机断层扫描数据集。该数据集包含22卷（7363片），并带有经验丰富的射线照相解释者注释的精细牙齿标签。为了确保相对的数据采样分布，数据方差包括在牙齿中，包括缺失的牙齿和牙齿修复。在此数据集上评估了几种最新的分割方法。之后，我们进一步总结并应用了一系列基于3D注意的UNET变体以分割牙齿。这项工作为牙齿体积分割任务提供了新的基准。实验证据证明，3D UNET结构的注意力模块增强了牙齿区域中的反应，并抑制背景和噪声的影响。 3D UNET使用SKNET注意模块实现了最佳性能，分别为88.04 \％骰子和78.71 \％IOU。基于注意力的UNET框架的表现优于Ctooth数据集上的其他最新方法。代码库和数据集已发布。

translated by 谷歌翻译

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

Aarohi Srivastava , Abhinav Rastogi , Abhishek Rao , Abu Awal Md Shoeb , Abubakar Abid , Adam Fisch , Adam R. Brown , Adam Santoro , Aditya Gupta , Adrià Garriga-Alonso

分类：自然语言处理 | 人工智能 | 机器学习 | (统计)机器学习

2022-06-09

语言模型既展示了定量的改进，又展示了新的定性功能，随着规模的增加。尽管它们具有潜在的变革性影响，但这些新能力的特征却很差。为了为未来的研究提供信息，为破坏性的新模型能力做准备，并改善社会有害的效果，至关重要的是，我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战，我们介绍了超越模仿游戏基准（Big Bench）。 Big Bench目前由204个任务组成，由132家机构的442位作者贡献。任务主题是多样的，从语言学，儿童发展，数学，常识性推理，生物学，物理学，社会偏见，软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号，Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为，跨越了数百万到数十亿个参数。此外，一个人类专家评估者团队执行了所有任务，以提供强大的基准。研究结果包括：模型性能和校准都随规模改善，但绝对的术语（以及与评估者的性能相比）；在模型类中的性能非常相似，尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分，而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标；社交偏见通常会随着含糊不清的环境而随着规模而增加，但这可以通过提示来改善。

translated by 谷歌翻译

Neural Hierarchical Factorization Machines for User's Event Sequence Analysis

Dongbo Xi , Fuzhen Zhuang , Bowen Song , Yongchun Zhu , Shuai Chen , Dan Hong , Tao Chen , Xi Gu , Qing He

分类：机器学习

2021-12-31

许多真实应用程序的预测任务需要在用户的事件序列中模拟多阶特征交互以获得更好的检测性能。然而，现有的流行解决方案通常遭受两个关键问题：1）仅关注特征交互并无法捕获序列影响;2）仅关注序列信息，但忽略每个事件的内部特征关系，因此无法提取更好的事件表示。在本文中，我们考虑使用用户的事件顺序捕获分层信息的两级结构：1）基于基于事件表示的学习有效特征交互;2）建模用户历史事件的序列表示。工业和公共数据集的实验结果清楚地表明，与最先进的基线相比，我们的模式实现了更好的性能。

translated by 谷歌翻译

PixMix: Dreamlike Pictures Comprehensively Improve Safety Measures

Dan Hendrycks , Andy Zou , Mantas Mazeika , Leonard Tang , Dawn Song , Jacob Steinhardt

分类：机器学习 | 计算机视觉

2021-12-09

在真实世界的机器学习应用中，可靠和安全的系统必须考虑超出标准测试设置精度的性能测量。这些其他目标包括分销（OOD）鲁棒性，预测一致性，对敌人的抵御能力，校准的不确定性估计，以及检测异常投入的能力。然而，提高这些目标的绩效通常是一种平衡行为，即今天的方法无法在不牺牲其他安全轴上的性能的情况下实现。例如，对抗性培训改善了对抗性鲁棒性，但急剧降低了其他分类器性能度量。同样，强大的数据增强和正则化技术往往提高鲁棒性，但损害异常检测，提出了对所有现有安全措施的帕累托改进是可能的。为满足这一挑战，我们设计了利用诸如分数形的图片的自然结构复杂性设计新的数据增强策略，这优于众多基线，靠近帕累托 - 最佳，并圆形提高安全措施。

translated by 谷歌翻译

Measuring Coding Challenge Competence With APPS

Dan Hendrycks , Steven Basart , Saurav Kadavath , Mantas Mazeika , Akul Arora , Ethan Guo , Collin Burns , Samir Puranik , Horace He , Dawn Song

分类：自然语言处理 | 机器学习

2021-05-20

虽然编程是现代社会中最广泛适用的技能之一，但现代机器学习模型仍然无法对基本问题的解决方案。尽管重要的是，对评估代码生成令人惊讶的是，很少有效，并且难以准确地评估代码生成性能。为了满足这一挑战，我们介绍了一个用于代码生成的基准。与在更受限制的设置中的事先工作不同，我们的基准测试衡量模型采取任意自然语言规范的能力，并生成满意的Python代码。类似于公司如何评估候选软件开发人员，然后我们通过检查测试用例的生成代码来评估模型。我们的基准测试包括10,000个问题，从具有简单的单线解决方案来实现实质性算法挑战。我们在GitHub和我们的培训集上微调大型语言模型，我们发现语法错误的普遍性随着模型的提高而导致呈指数级递减。最近的模型如GPT-Neo可以通过大约20％的介绍性问题的测试用例，因此我们发现机器学习模型现在开始学习如何代码。随着自动代码生成的社会意义在未来几年增加，我们的基准可以提供跟踪进步的重要措施。

translated by 谷歌翻译

Enhancing Word-Level Semantic Representation via Dependency Structure for Expressive Text-to-Speech Synthesis

Yixuan Zhou , Changhe Song , Jingbei Li , Zhiyong Wu , Yanyao Bian , Dan Su , Helen Meng

分类：自然语言处理

2021-04-14

Exploiting rich linguistic information in raw text is crucial for expressive text-to-speech (TTS). As large scale pre-trained text representation develops, bidirectional encoder representations from Transformers (BERT) has been proven to embody semantic information and employed to TTS recently. However, original or simply fine-tuned BERT embeddings still cannot provide sufficient semantic knowledge that expressive TTS models should take into account. In this paper, we propose a word-level semantic representation enhancing method based on dependency structure and pre-trained BERT embedding. The BERT embedding of each word is reprocessed considering its specific dependencies and related words in the sentence, to generate more effective semantic representation for TTS. To better utilize the dependency structure, relational gated graph network (RGGN) is introduced to make semantic information flow and aggregate through the dependency structure. The experimental results show that the proposed method can further improve the naturalness and expressiveness of synthesized speeches on both Mandarin and English datasets.

translated by 谷歌翻译